(Day13)取出有幫助的分詞資料

2018 iT 邦幫忙鐵人賽

DAY 13

Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列第 13 篇

2018鐵人賽

Kimi0

2017-12-17 22:59:12

2862 瀏覽

分享至

接下來，回到本專案的正題，直接把先前爬出的第一層議題欄位，餵進去處理。

View(as.character(dfl$title))
seg<-mixseg[as.character(dfl$title)]
View(seg)

江~江~ 結果就是長這樣子

來看看前50是那些內容吧!

segA_top50<-sort(table(seg),decreasing = TRUE)[1:50]
View(segA_top50)

看來是一些單字無義的詞句，用掉最多! 直接濾掉字元長度>1

segB<-seg[nchar(seg)>1]#table
segB_top50<-sort(table(segB),decreasing = TRUE)[1:50]#table
segB_top50=as.data.frame(segB_top50)#table->data.frame

View(segB_top50)

(Day12)jiebaR的分詞引擎設定

(Day14)玩一下文字雲

系列文

職場老鳥的資料科學初體驗-R語言專案實作紀錄共 30 篇

RSS系列文訂閱系列文

24 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 13 篇

(Day13)取出有幫助的分詞資料

尚未有邦友留言

標記使用者

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列第 13 篇